これには3種類あるそうです
①完全にランダムな欠損
②観測データに依存する欠損
③欠損データに依存する欠損
・上の①の場合はペアワイズ削除やリストワイズ削除することも可能だが、もったいない。△
・平均値や中央値を当てはめることもできるが、推定値にバイアスを受けることになる。×
また、推定制度を過剰によく推定しまうことになる。
・上の②の場合はリストワイズしてもバイアスを受ける。×
それは特定の傾向を持つデータを無視することになる。
・観測データをすべて用いた推定方法(完全情報最尤法)△
欠損したデータはわからないが、それ以外はすべて使う方法
・多重代入による推定方法△
・上の③の場合は観測データをたくさん取って、欠損に関連しそうな△
補助変数モデルに入れることで②に近づけることができる。
================================================================================
<<二項分布の場合の最尤推定量>>
1枚のコインを空中に n 回投げて、表が出る回数が x とします。
このときの表の出る確率 P の最尤推定量を求めます。
パラメータθに従う分布の密度関数をf(x; θ)、尤度関数をP(θ; x) = f(x; θ)とすると
P(θ; x)を最大にするようなθ=Θ(最尤推定量)を求める。
二項分布の密度関数は
f(x; θ) = nCx *θ^x * (1 - θ)^(n-x) = P(θ; x)
の最大となるθを考えればよい
そのため微分を行いたいが、このままでは複雑なのでΘを求めるのに支障のない
対数関数の形にする。
p(θ) = logP(θ; x) = log[nCx * θ^x * (1 - θ)^(n-x)]
= log[n!/(x! * (n - x)! ) + logθ^x + log(1 - θ)^(n-x)
= log(n!) - log(x!) - log(n - x)! + xlogθ + (n - x)log(1 - θ)
p(θ)をθで微分すると、1番目から3番目までの対数の項は0となるため
p'(θ) = x/θ - (n - x)/(1 - θ)
= [1/θ * 1/(1 - θ)] * [x(1 - θ) - θ(n - x)]
= [1/θ * 1/(1 - θ)] * (x - nθ) = 0 最大の時0となる
x = nθ
θ = x/n
よって二項分布の場合、Θ = x/n が θの最尤推定量となる。
具体的に
n = 10 回コインをを投げて表が 6 回出た時の最尤推定量は
6 を 10 で割った 6/10 = 3/5 となる。