欠損値があるデータ

これには3種類あるそうです

①完全にランダムな欠損

②観測データに依存する欠損

③欠損データに依存する欠損

・上の①の場合はペアワイズ削除やリストワイズ削除することも可能だが、もったいない。△

・平均値や中央値を当てはめることもできるが、推定値にバイアスを受けることになる。×

　また、推定制度を過剰によく推定しまうことになる。

・上の②の場合はリストワイズしてもバイアスを受ける。×

　それは特定の傾向を持つデータを無視することになる。

・観測データをすべて用いた推定方法（完全情報最尤法）△

　欠損したデータはわからないが、それ以外はすべて使う方法

・多重代入による推定方法△

・上の③の場合は観測データをたくさん取って、欠損に関連しそうな△

　補助変数モデルに入れることで②に近づけることができる。

================================================================================

<<二項分布の場合の最尤推定量>>

１枚のコインを空中に n 回投げて、表が出る回数が x とします。

このときの表の出る確率 P の最尤推定量を求めます。

パラメータθに従う分布の密度関数をf(x; θ)、尤度関数をP(θ; x) = f(x; θ)とすると

P(θ; x)を最大にするようなθ=Θ（最尤推定量）を求める。

二項分布の密度関数は

f(x; θ） = nCx *θ^x * (1 - θ)^(n-x) = P(θ; x)

の最大となるθを考えればよい

そのため微分を行いたいが、このままでは複雑なのでΘを求めるのに支障のない

対数関数の形にする。

p(θ) = logP(θ; x) = log[nCx * θ^x * (1 - θ)^(n-x)]

= log[n!/(x! * (n - x)! ) + logθ^x + log(1 - θ)^(n-x)

= log(n!) - log(x!) - log(n - x)! + xlogθ + (n - x)log(1 - θ)

p(θ)をθで微分すると、１番目から３番目までの対数の項は０となるため

p'(θ) = x/θ - (n - x)/(1 - θ)

= [1/θ * 1/(1 - θ)] * [x(1 - θ) - θ(n - x)]

= [1/θ * 1/(1 - θ)] * (x - nθ) = 0 最大の時０となる

x = nθ

θ = x/n

よって二項分布の場合、Θ = x/n が θの最尤推定量となる。

具体的に

n = 10　回コインをを投げて表が 6 回出た時の最尤推定量は

6　を 10 で割った　6/10 = 3/5 となる。

python3Xのブログ