こんにちは。岡川です。(twitter @hokagawa)
今回はインターネット広告代理店におけるデータ分析に特化したわけではなく、データマイニングの一般的な方法論を記事にします。
社内外含めて、統計学やデータマイニングの流行の波の中で、統計学やデータマイニングの講師を依頼されることがあります。私は大学院で素粒子物理学を専攻していましたが、統計学の講義は大学含め受けたことが1回もありません。社会に出てから一人勉強した方法が多く、本当に正しく理解しているかと不安になります。
不安解消のため、備忘録を兼ねて書きました。
色々意見いただければ幸いです。
(主成分分析を選んだ理由は特にありません。)
主成分分析の考え方
変数が複数ある場合に、それらの変数間に相関がある場合があります。一方の変数が増える(減る)と、他方の変数も増える(減る)という関係です。
この場合、連動して変化しているのだから、どちらか一方を見ていればよいのではないかと考えます。これが主成分分析のアイデアです。
少し抽象的に表現すると、x1とx2が相関している場合、座標を回転することにより、重要な軸だけで分析したい、というのが主成分分析のアイデアです。
こうする事で、嬉しいことがあります。例えば
・多次元で分析が複雑になること防ぐことができる。
・回帰分析をするときの多重共線性(マルチコ)の問題を回避できる。
具体的には以下のように座標を回転します。
上記の場合、w1軸上ではデータに広がりがあり重要度が高いが、w2は重要度が低いと言えます。
この場合、(x1,x2)の2次元で考えるよりも、部分空間(w1)の1次元で考えてもよいのではないか、つまり、そのような部分空間を見つける方法が主成分分析です。
以下では、こういった部分空間を見つける方法(主成分分析)について書きます。
部分空間への射影
射影という言葉を軽々に使用していますが、数学用語です。部分空間の各次元へ、元々のベクトルを射影している様子は次の通りです。
あるベクトルの別のベクトルへの射影は、数学的には内積という形で表現できます。
※ここで、wは直交するように、互いに異なる次元方向の内積はゼロとなるようにしています。(この記事では、直交変換の主成分分析を考えます。)
各yが各軸上への成分ですから(上記では、y1はxのw1への射影成分)、成分の方向を示すベクトルをかけて、足し算すると、部分空間を張るベクトルが完成します。
主成分分析の目標として、"意味のある部分空間"を求めることですので、どのようにwを選ぶかが重要です。
この問題を、コスト関数というwの関数を定義して、それの極値を求めるという変分原理へ書き換えることが一般的な方法です。
コスト関数
天下り的にコスト関数を定義します。
これを最小化する事が、よい部分空間を選ぶことに対応します。
等価なコスト関数は以下の通り。上記Eを最小化するためには、第2項を最大化することに対応します。マイナスする項を大きくすると、マイナスが大きくなるので、全体は小さくなるということです。
これを最大化する事が、よい部分空間を選ぶことに対応します。
とわいえ、感覚的に分からないと思いますので、その気持ちを表現してみます。
この式の気持ち
元々のベクトルxが部分空間に射影された成分の2乗の合計(=データの部分空間上での分散)が最大になるようにする。データのばらつきが大きい部分空間(=情報量として多い部分空間)を選ぶというのが、このコスト関数の気持ちです。
※今さらですが、xは規格化して、平均ゼロにしているとお考えください。
ラクランジュ未定乗数法による解法
次は、実際に最大化問題を解きます。ラグランジュ未定乗数法という方法で解く事ができて、結果は次のようになります。
この方法については、天下り的に与えます。
ここで特徴的なことは、コスト関数の最大化することが、行列Sの固有値問題を解くことに対応します。つまりS(元々のベクトルxの共分散から作られた行列)の、固有値と固有ベクトルを求めることで、wという部分空間が求まります。
固有値と固有ベクトルのペアはたくさん(部分空間の次元だけ)出てくるのですが、その意味を考えてみます。
固有値(ラムダ)は書き換えると以下のようになります。
固有値(ラムダ)が大きい部分空間mほど、射影された距離の2乗和が大きいということが言えます。
つまり、固有値が大きい部分空間上ほど、データが広がっており、情報をより多く持った部分空間ということが言えます。
各固有値を全固有値の和で割り算した値は、寄与度を呼ばれていて、寄与度を大きい方から足し算して累積した値は、累積寄与度と言います。
できるだけ次元の小さな部分空間で分析できた方が嬉しいですから、累積寄与度が一定の値になるまで部分空間を取り、残りの重要でない部分空間をカットします。それで分析すれば、よいということです。
以上
終わり








