欠損値があるデータ | python3Xのブログ

python3Xのブログ

ここでは40代、50代の方が日々の生活で役に立つ情報や私の趣味であるプログラム、Excelや科学に関する内容で投稿する予定です。

これには3種類あるそうです

完全にランダムな欠損

観測データに依存する欠損

欠損データに依存する欠損

 

・上の①の場合はペアワイズ削除やリストワイズ削除することも可能だが、もったいない。

・平均値や中央値を当てはめることもできるが、推定値にバイアスを受けることになる。×

 また、推定制度を過剰によく推定しまうことになる。

 

・上の②の場合はリストワイズしてもバイアスを受ける。×

 それは特定の傾向を持つデータを無視することになる。

・観測データをすべて用いた推定方法(完全情報最尤法)

 欠損したデータはわからないが、それ以外はすべて使う方法

・多重代入による推定方法

 

・上の③の場合は観測データをたくさん取って、欠損に関連しそうな

 補助変数モデルに入れることで②に近づけることができる。

================================================================================

<<二項分布の場合の最尤推定量>>

1枚のコインを空中に n 回投げて、表が出る回数が x とします。

このときの表の出る確率 P の最尤推定量を求めます。

パラメータθに従う分布の密度関数をf(x; θ)、尤度関数をP(θ; x) = f(x; θ)とすると

P(θ; x)を最大にするようなθ=Θ(最尤推定量)を求める。

二項分布の密度関数は

f(x; θ) = nCx *θ^x * (1 - θ)^(n-x) = P(θ; x)

の最大となるθを考えればよい

そのため微分を行いたいが、このままでは複雑なのでΘを求めるのに支障のない

対数関数の形にする。

p(θ) = logP(θ; x) = log[nCx * θ^x * (1 - θ)^(n-x)]

= log[n!/(x! * (n - x)! )  + logθ^x + log(1 - θ)^(n-x)

= log(n!) - log(x!) - log(n - x)! + xlogθ + (n - x)log(1 - θ)

p(θ)をθで微分すると、1番目から3番目までの対数の項は0となるため

p'(θ) = x/θ - (n - x)/(1 - θ)

= [1/θ * 1/(1 - θ)] * [x(1 - θ) - θ(n - x)]

= [1/θ * 1/(1 - θ)] * (x - nθ) = 0       最大の時0となる

x = nθ

θ = x/n

よって二項分布の場合、Θ = x/n が θの最尤推定量となる。

具体的に

n = 10 回コインをを投げて表が 6 回出た時の最尤推定量は

6 を 10 で割った 6/10 = 3/5 となる。