AIC (赤池情報量基準) その1 K-L情報量 | ぽんのブログ

ぽんのブログ

自分用の備忘録ブログです。書いてある内容、とくにソースは、後で自分で要点が分かるよう、かなり簡略化してます(というか、いい加減)。あまり信用しないように(汗

前回までで、kmeansとその改良版であるkmeans++を紹介しました。

説明がはしょりすぎていてワケワカメですが、自分の為にまとめたので良いのです!(汗


さてところで、kmeans法の問題点として初期値依存性が大きい事を挙げましたが、それ以外にも問題となるのが、
データがいくつのクラスタに分かれるか

をこちらから指定してやらなければいけない、という点です。

データを見ればいくつに分けられるか一目瞭然(それならkmeansを使う必要もないですが・・・)とか、先見情報なんかでクラスタ数が分かっているとかいうのなら良いのですが、そうでない場合いくつのクラスタに分けたらいいか判断に困る場合も多いと思います。


この問題に対し、クラスタリング結果の「良さ」を判断する為に、kmeansでは
AIC (赤池 information criterion : 赤池情報量基準)

BIC(ベイズ情報量基準)
という物差しを用います。


このAIC、BICってなんでしょう???

例えば「AIC」でググってみると・・・


アニメ・インターナショナル・カンパニー制作
OVA 「眼鏡なカノジョ」 2010年11月25日発売決定!!


何かを間違った・・・

統計的推測や予測の問題において、統計的モデルの良さを評価する為に用いられるカルバックライブラー(K-L)情報量基準があり、この情報量から生まれたのが赤池情報量基準(AIC)である。

データを説明する統計モデルを立てた際、そのモデルの良さを判断する基準のようですね。

でもkmeans法ではどんな統計モデルを立てている事になるんでしょう?

kmeans法でクラスタリングする際の判断基準は、データ間の「距離」だけです。
この「距離」に普通のユークリッド距離を用いたら、右方向の距離も、左方向の距離も区別が無くなりますから同じクラスタのデータが球状に分布しているような場合しかうまく分けられない気がします。
さらにAICをそれに適用するなら、データが各軸方向の分散が等しい正規分布に従っている、というような状況を想定しないと、なんだか厳密な意味で適用できない気がします。

そういう意味では全てに万能なのではなく、結構制約があり、距離の定義や想定する確率分布に何を用いるかなど、結構考えないともしかしたらうまい事働かないものなのかもしれません。

そこのところは良くわかってません(汗

まぁ、それはとりあえず置いとくとして。。。
AICの説明を(自分の為に!)まとめておきましょう。


さっきの、眼鏡じゃないほうのAICの説明では、AICの元となるK-L情報量なるものがあるようですね。

この本 でのK-L情報量の説明をはしょり気味で書くと・・・


未知の確率分布に従い生成されるデータ x があったとして、そのデータから統計モデルを組み立てたとする。
真の確率分布、我々が組み立てたモデルがそれそれ確率密度関数 g(x)f(x) を持つとした場合



をK-L情報量と呼び、この値が小さい(0に近い)ほどモデルは真の分布に近いと判断できる。


この事は、簡単な計算で L >= 0、且つ L=0 となるのは f = g の時のみ、と示せる事が先の本を読めば分かります。
f = g の時、というのは、言うまでもなくデータから推定した「モデル」が「真の分布」に完全に一致した、つまり何かの神様が降りてきて奇跡的にデータからほんとの分布を言い当てられた時の事です。


なるほど。なんだか便利そうですね♪
んじゃさっそく使ってみましょう・・・と、上の L を計算する為手を動かそうとしたとき気づきます。

「あれ??真の分布の密度関数 g(x) が分かんないと計算できないじゃん・・・」

そうですね。あっさり書かれてて気づきませんでしたが、上の L の式には未知であるはずの真の密度関数 g(x) がばっちり入ってますよね?

だから~ g(x) が分かんないからモデルを作ったんでしょ?答えが分かってんなら K-L情報量も何も、モデル立てる必要もないよ!!

K-L情報量はこのままでは、実際に計算できない、机上の空論じゃないですが意味ないものになってしまいます。

そこで何とか L を、計算可能で且つ当たらずとも遠からずなものに置き換えよう、と故・赤池先生が頑張って導き出されたのがAICなのです。


で、まず手をつけるのが g(x) の置き換えです。
先にも書いたように、これが入ってくるからK-L情報量が計算できない訳なので、これをデータから直接計算可能なものに置き換えようと用いられたのが「経験分布」です。

次回、経験分布について、まだ情熱が続いてたら書きます・・・