前回、前々回のベータ分布、ガンマ分布の最尤推定のアルゴリズムを眺めていると、そのままEMアルゴリズムの更新式を求められそうですね。
AIC のところで出てきたコーシー分布もEM法に持っていけそうです。
まぁ、コーシーのところで紹介した元論文は、元々混合 t 分布のEMアルゴリズムについてのものでしたし。
ガンマやベータ分布については、前回・前々回載せた最尤推定法に基づいたEMアルゴリズムでは実用性は疑問かもしれません・・・引用論文でも、最尤推定値への収束は遅い、とあるのでEMアルゴリズムではなおさらかも。
なにより、ガンマとかベータ分布の使いどころが想像できない・・・・・
まぁ、でも色々な分布について一応更新式を載せてゆきましょう。
その前にEMアルゴリズムの説明を。
ここで扱うのは混合分布と呼ばれるものです。
一番代表的なのは混合正規分布でしょうか?
つまりデータが、いくつかの異なる正規分布に従って生成されたものの足し合わせになっている、という状況を考えます。
但しどのデータがどの分布から生じたかという大切な情報が欠足しています。
観測者は切腹ですね。
考えただけでややこしそうですが、こうしたデータから、どのデータがどの分布に従うかだけでなく、それぞれの分布のパラメータまで推定してしまうのがEM法と呼ばれる計算方法です。
まるで魔法のようですね。
観測者も切腹を免れそうです。
EM法、なんだか難しそうですが、でも意外にアルゴリズムやその考え方自体は単純、というか分かりやすい気がします。
あ、そういえばこのブログの最近の記事、元々はクラスタリングの話から始まってたんでしたね(汗
kmeans、なんか懐かしい(遠い目
で、このEM法もデータをクラスタリングする方法としても用いられます。
例えば下のようなデータ
kmeans++で2つのクラスタに分けると
こんな感じになりますが、EM法(混合正規分布)でクラスタリングすると
こんな風になります。
なんだか便利そうですね♪
という訳で次回、簡単な(??)例でEMアルゴリズムの紹介をします(たぶん・・・きっと・・・・)。
BICはどこ行った!
いずれ書きます・・・・・