データマイニングの基礎:アソシエーション分析とは | インターネット広告代理店で働くデータサイエンティストのブログ
こんにちは。岡川です。(twitter @hokagawa)

 今回もインターネット広告代理店におけるデータ分析に特化したわけではなく、データマイニングの一般的な方法論を記事にします。

前回までの記事はこちらです。
主成分分析 
フィッシャーの線形判別 
線形回帰分析

 前回も書きましたが、社内外含めて、統計学やデータマイニングの流行の波の中で、統計学やデータマイニングの講師を依頼されることがあります。私は社会に出てからデータマイニングを勉強したので、伝え方に問題ないか心配で、色々ご意見いただければ幸いです。


アソシエ―ション分析の考え方

 何かしらのデータを見ると、何かと何かがペアで現れる傾向が高い場合があります。

例えば、スーパーマーケットで、ワインとサラミはよく一緒に買われることがあると推測されます。それが分かれば、ワインの陳列棚の横にサラミが置いてあれば、客は買いやすいくなるわけです。

アソシ―エション分析は、「一緒に表れやすいペアをデータの中から発見するための方法」です。

上記のような、自明なペアであれば、関係性が発見されても「はー、そうですか。感覚的に知ってましたよ。」という感じですが、例えば、ビールとおむつがよく一緒に買われる事が分かったとしたら、非自明な関係ですから、驚きますし、新しい商機になる可能性もあるわけです。

今回は、ユーザーの動画接触と検索広告接触のアソシエーション分析を例にとります。


アソシ―エション分析に必要なデータ

インターネット広告では以下のようなユーザーの行動履歴データを取得できます。

※参考
広告効果計測ツールCAMP

このデータを以下のように各ユーザーごとに、広告の接触有無(0と1)で集計します。

このような形式でデータが揃えば、アソシ―エション分析が実行できます。実際に以下で説明します。


アソシ―エション分析における指標

各種の指標は以下の通りです。


今回は、以下の通りとします。
 X=動画広告接触
 Y=検索広告接触

それぞれ意味を見ていきます。

支持度
 全体数から見て、動画広告と検索広告が一緒に接触される割合です。よって、この数値が大きいことが、分析対象のボリュームが大きいことを意味しますから、そもそも分析の意味があるのかを教えてくれる指標になります。

※小さな兆しを発見したい場合は、支持度が小さくても意味のある分析です。


確信度
 動画広告に接触したユーザーの中で、検索広告に接触する割合です。この数値が大きいことが、分析対象間の関係性の強さの"絶対値"を表します。


リフト
 動画広告に接触したユーザーが検索広告に接触する割合と、平均的なユーザーが広告に接触する割合の比です。この数値が大きいことが、動画広告に接触したという条件による、検索広告接触の割合の増加率を表します。

 確信度が高いだけでは、そもそも動画という条件無でも検索される可能性が大きかったかもしれません。このリフトを調べることで、動画への接触という条件付けにより、検索に対する意向度の上昇を評価できます。


アソシ―エション分析の例

まずは、計算のための部品となる量を集計します。データは上記データ(表)を活用します。


全ユーザーは10人
動画に接触したユーザーは5人
検索に接触したユーザーは5人
動画と検索の両方に接触したユーザーは5人

これらの量を用いて、3つの指標を計算すると以下の通りです。


考察
 支持度が大きいことから、このペアは全体から見てよくあらわれるということが分かります。つまり分析する意味はありそう。

 確信度が大きいことから、動画広告を見たユーザーは検索する傾向があることが分かります。

 リフトが100%を超えているので、確信度が高いのは、30%分くらいは、動画広告による条件付けによる効果だと判断できます。つまり、動画広告に接触する事が、検索行動を誘発している。動画広告意味ありそうというイメージです。


おわりに

今回の方法はパターン認識の中で、基本的な方法です。機械学習などの難しい理論というよりは、分かりやすい集計内容のため、実用的にも優れていると思います。インターネット広告の現場でもよく使う印象です。

Rなどでパッケージありますので、是非活用してみてください。

参考図書
データマイニング入門/東京図書

¥3,672
Amazon.co.jp

以上

終わり