長く昼寝してしまいました・・・なので、スッキリしています。
昨日の続きで区間推定です。
>>>
2つの母集団分布が
2 2
N(μ1,σ1)、N(μ2,σ2)
である時、
それぞれ2つの標本
(X1,X2,・・・,Xm)、(Y1,Y2,・・・,Yn)
を抽出した時の母平均の差
(μ1-μ2)
の区間推定は次の通りになります。
>>>
2 2 2
(1)2つの母分散が等しい場合(σ1 = σ2 = σ)
2つの分散が合併した
2 n _ 2 n _ 2
s = ( Σ(Xi-X) + Σ(Yi-Y) ) / (m+n-2)
i=1 i=1
を用いて、
(四角形で考えると、2つの母集団の全ての四角を合計して全ての個数で割るということですね)
→不偏分散なので「(個数-1)で割る」より「(個数1+個数2-2)で割る」をする。
_ _
下限信頼限界: X - Y - ( t(α/2)(m+n-2) × s × √(1/m + 1/n) )
_ _
上限信頼限界: X - Y + ( t(α/2)(m+n-2) × s × √(1/m + 1/n) )
を求めます。
試しに
それぞれ10個のデータで平均が(70,50)、分散が100、有意水準α=0.05の
信頼区間を求めてみます。
= 70 - 50 ± (2.101 × 10 × √(1/10+1/10))
= 70 - 50 ± (2.101 × 10 × 0.45)
= 20 ± 9.45
= [10.55 , 29.45]
この母集団の母平均の差は、95%の確率で「10.55~29.45」になります。
>>>
2 2
(2)2つの母分散が等しくない場合(σ1 ≠ σ2)
ウェルチの近似法を用いて
_ _ 2 2
下限信頼限界: X - Y - ( t(α/2)(ν´) × √(s1/m + s2/n) )
_ _ 2 2
上限信頼限界: X - Y + ( t(α/2)(ν´) × √(s1/m + s2/n) )
を求めます。
2 _
※ s / n は標本平均 x の分散です。
ちなみにその平方根は標本平均の「標準誤差」と言います。
ここで、ν´は次のνにもっとも近い整数です。
(おさらい:νは自由度。不偏分散の分母「個数-1」の部分に当たる)
2 2 2 2 2 2 2
s1 s2 s1 s2
ν = ( ----- + ----- ) / ( (-----) /(m-1) + (-----) / (n-1) )
m n m n
うわぁアレルギー反応出てきた(汗)
日本語で要約してみると、
((標本平均1の分散+標本平均2の分散)の2乗)を
(標本平均1の分散を標準偏差とした不偏分散+標本平均2の分散を標準偏差とした不偏分散)で
割ったものとなりますが、
どうしてこうなるかまでは理解しようとか考えなくてもよいのかしら??(式として考える?)
さっきの例で問題を解いてみたいと思います。
それぞれ10個のデータで平均が(70,50)、分散が(100,50)、有意水準α=0.05の
信頼区間を求めてみます。
2 2 2
ν = (100/10+50/10) / ( (100/10)/9 + (50/10)/9 )
= 225 / (100/9 + 25/9)
= 225 / (11.11 + 2.78)
= 225 / 13.89
= 16.19
≒ 16
「自由度ν=16、α=0.025」でt分布表を調べると、「2.120」でした。
= 70 - 50 ± (2.120 × √(100/10+50/10))
= 20 ± (2.120 × 3.87)
= 20 ± 8.20
= [11.80 , 28.20]
この母集団の母平均の差は、95%の確率で「11.8~28.2」になりました。
>>>
理屈はよくわかっていませんが
計算してみると「こんな感じかも」という値が出ているようです・・・。