心理学統計法の基礎知識 | 奇跡の今日一日

奇跡の今日一日

東京都山岳連盟認定ガイド宮崎薫ブログ

1.偏差

・平均値との差

 

分散と標準偏差とはデータの特徴を要約する基本統計量の一つで、「データが平均値の周辺でどれくらいばらついているか」を表す。

 

2.分散

・「平均値より大きいデータの偏差の和」と「平均値より小さいデータの偏差の和」が打ち消しあうために、偏差の和は常に「0」になる。したがって、この方法ではデータ全体のばらつき具合を比較することはできない。そのため平均値からの偏差の2乗の平均値を「分散」としてデータのばらつき具合(散布度)を表す。

{\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}

・分散は数学的にものすごく便利だが2乗しているので、単位が変わってしまうのが難点。そのため、実際に平均値からどれくらいばらつきがあるのかを把握するためには標準偏差が使われる。

 

3.標準偏差

・散布度を表す代表指標

・標準偏差は標準的な偏差を表し、分散の平方根である。標準偏差が 0 であることは、データの値が全て等しいことと同値である。

・標準偏差が大きい=平均値から離れているデータが多い=データのばらつき具合が大きい

・標準偏差が小さい=平均値から近いデータが多い=データのばらつき具合が小さい

・標準偏差 Xの意味は「各データが平均値から標準的に X 離れている」ということ

 

{\displaystyle s={\sqrt {{\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}}

 

4.共分散

・2変数の関係の強さを表す指標の一つ。ただし、データの単位の影響を受けるので値の大きさで単純に比較できない

・変数Xの偏差と変数Yの偏差を掛け合わせた値を足し合わせて、要素の個数で割ったもの

 

【1】の両方が正の値のとき。

【2】が正の値、が負の値のとき。

【3】が負の値、が正の値のとき。

【4】の両方が負の値のとき。

【1】【4】が正の値(正の相関)、【2】【3】が負の値(負の相関)

 

5.相関係数

・2種類のデータ間の関連性(相関関係)の強さを示す指標

 

 

・相関係数は-1から1までの値を取る。
(1) 正の相関が強いと相関係数が1に近づく
(2) 負の相関が強いと相関係数が-1に近づく
(3) 相関係数が1又は-1のときは完全相関という
(4) 相関係数が0の付近は相関がないといえる

 

6.カイ2乗検定

・カテゴリカルな2つの指標が、お互いに独立している(関連性がない)のか、それとも独立していない(関連性がある)のか」を明らかにする検定

・クロス集計表の、あるセルの観測度数を期待度数で引いたものを二乗し、それを期待度数で割ったものを、すべてのセル分合計する

・観測度数とは、「実際のデータとして得られた値」

・期待度数とは、「二つの指標が互いに独立していた場合、そのセルに入ることが期待される値」

・期待度数がわかれば、先ほどのカイ二乗値の数式に当てはめ、図3のようにカイ二乗値を算出することができる。カイ二乗値を大まかに表すと、「各セルの観測度数と期待度数のズレを算出し、それを足し合わせたもの」

・カイ二乗値は、観測度数と期待度数のズレが大きければ大きいほど値として大きくなる。つまり、カイ二乗値が高いほど、2つの指標は互いに独立しておらず、関連している可能性が高い。

 

7.クラメールの連関係数

・クロス集計表における行要素と列要素の関連の強さを示す指標

 

8。回帰直線

・相関のある散布図で、データに最もよく当てはまるよう引いた直線

・最小二乗法は、データとそれを表す回帰直線の誤差を最小にするような直線y=ax+bの回帰係数aと切片bを決める方法のこと