重回帰分析2

重回帰分析を行う場合に、重要な視点になるのが、「どの変数を使って分析をするか」です。

重回帰分析は予測分析の手法で、原因となる変数から結果となる変数の予測式をたてるわけですが、
原因を独立変数、結果を従属変数と呼んで使います。

このとき、独立変数と従属変数の間には強い相関があることが望まれます。
原因と結果の間に、何の関係性もないとしたら、予測式なんて作れっこないわけです。

そして、意外と見落としがちなのが、独立変数間の関係です。

予測分析を行う場合、独立変数間は無相関であることが望まれます。
ただし、まったくの無相関である独立変数を観測することは困難なので
多くの場合、独立変数間の相関が強すぎないことが要求されます。

このとき、独立変数間の相関が強すぎる場合に発生する現象が、回帰分析のテキストには
必ずといっていいほど説明されている多重共線です。
（この記載がないテキストは使わないほうがよいでしょう）

重回帰分析を行う場合は、多重共線にならないように心がけることが鉄則です。
多重共線を疑うような相関の数値の目安は、0.9以上にするとよいと思います。
無難に考えるのであれば、0.8以上で考えてみてください。

そのような高すぎる相関を示す独立変数の場合、どちらのみを分析に残して使うようにするのが
基本です。

重回帰分析1

変数1つについて分析する手法を、1変量解析または単変量解析と呼びます。
ちなみに、2つの変数を組みあわせてその関係性を分析する場合は、2変量解析です。

そして、同時に複数の変数を扱って分析する手法が多変量解析です。
特に世の事象の多くは、たくさんの因子が複雑にからみあったり、影響を与えたりして
構成されていますので、多変量解析によるデータ分析は有効な情報を引き出す鍵となりえます。

因果関係への興味が強い場合は、共分散構造分析（構造方程式モデリング）による
解析を行う場合が多いですが、その下位モデルともいうべき、基本的な多変量解析の手法が
重回帰分析です。

重回帰分析は、量的変数を扱う解析手法ですが、数ある多変量解析の中でも基礎的な手法として
まず最初に学習するものです。もちろん、多変量解析は、先に挙げた1変量解析～2変量解析を
基礎としていますので、平均値・標準偏差・分散、相関係数、散布図、仮説検定、区間推定などの
統計の基本は抑えておくのが前提になります。

量的な変数の予測分析につかえるほか、原因となる変数の重要度にも注目することができるため、
アンケート分析などの要因解析にも利用される便利な分析手法です。

代表値として述べるべきもの

t検定や分散分析を用いてグループ間の差を調べる場合に、量的変数の代表値として
利用されるのは平均値と標準偏差（SD）ですが、この際「量的変数は正規分布にしたがう」
ことが前提となっていることに注意をしなければなりません。

「量的変数が正規分布にしたがうといえない」場合には、ノンパラメトリック検定を用いてグループ間の差を調べます。
対応のない2グループ間の検定では「マンホイットニー検定」
対応のある2グループ間の検定では「ウィルコクソン検定」
といった具合です。

このとき注意をしなければならないのは、論文などに代表値として記載すべき統計量は、平均値と標準偏差（SD）ではないという点です。

ノンパラメトリック検定は、ランクに変換された数値を用いて計算されており、もはや平均値を見ていません。グラフについても同様で、ノンパラメトリック検定によって差を検出した場合は、エラーバー（平均値の95％信頼区間）によって、表現することは適切とはいえないでしょう。

ノンパラメトリック検定で差の分析を行った場合は、中央値と四分位範囲（IQR）によって報告すべきです。
いずれも、データを大きさの順番で並べ替えたランクデータを対象にしている統計量です。

このように、ノンパラメトリック検定を適用すると、平均値に言及できないという制限が加わることもおさえておくべきポイントでしょう。

統計解析道具箱～はじめての統計分析～

Statistics never lie but liars use Statistics

重回帰分析2

重回帰分析1

代表値として述べるべきもの