統計解析道具箱~はじめての統計分析~ -2ページ目

統計解析道具箱~はじめての統計分析~

Statistics never lie but liars use Statistics

クロス集計表はカテゴリ変数同士の組み合わせで関係性を分析する
統計解析手法です。
その関係性が母集団にもあてはまることかどうかを調べるためには、統計的仮説検定が必要であり、
独立性の検定ともよばれるカイ2乗検定を利用します。

カイ2乗検定が有意となれば、変数の独立性が否定されて、母集団でも関係性が認められることが示唆されます。(独立とは統計学の用語で、関係がないことを意味する表現です)

しかし、カイ2乗検定も統計的仮説検定であるため、サンプルサイズが結果に大きな影響を与えます。

つまり、サンプルサイズが大きい場合はわずかな差でも有意になりやすく、サンプルサイズが小さい場合は大きめの差でも有意になりにくいのです。

そうすると、有意な結果となったときに、果たして本当に関係性があるといっていいのか、単純にサンプルサイズが大きいがゆえに有意となっているだけなのかの識別が難しくなります。

そこで、関係性の強さをあらわす指標を利用します。
これが連関係数で、スケール変数の関係性をあらわす相関係数に近似します。

2×2(2行2列)のクロス集計表の場合は、ファイ係数を利用し、2×2以上の場合は、クラメールのVとよばれる指標を使います。いずれも、0~1の範囲をとりますので、1に近いほど関係性が強いと判断できます。
これは医療データに基づく場合は、効果量(効果の大きさ)として表現されることもあります。
独立変数(医療データでは予後因子とよばれます)にもとづいて、
生存と死亡のように2つの値の判別に使用する統計分析手法として、判別分析とロジスティック回帰分析があります。

2群を判別するという目的で両者は同じですが、いくつかの違いがあります。

まず、判別分析は名前のとおり、2群を判別することを目的としており独立変数の効果にはあまり注目しません。また、分析に利用する変数は正規分布にしたがう必要があります。

一方、ロジスティック回帰分析も2群を判別することを目的としていますが判別分析と異なり、独立変数の効果に注目します。これはオッズ比(odds ratio)として知られる指標にもとづき、たとえば、「喫煙する人は喫煙しない人に対して、死亡のリスクが何倍になる」といったように、異なる条件間でのアウトカム(死亡、解約など)の発生要因を分析することができます。また、分析に使用する変数が正規分布にしたがう必要はありません。

したがって、判別分析とロジスティック回帰分析には類似点もありますが、独立変数の評価を目的とする場合などは、判別分析よりロジスティック回帰分析を優先させたほうがよいでしょう。
医療データにおける生存分析や、マーケティングデータにおける解約分析に利用される多変量解析手法に比例ハザードモデルがあります。これはCox回帰とも呼ばれる手法です。

特徴は、被説明変数にアウトカムとなる2値変数をおき(生存/死亡、継続/解約、など)、経過時間(t)とその他の説明変数により、ある時点におけるアウトカムの発生確率を分析する点です。このとき、アウトカム発生に関するハザード比(hazard ration)を計算することができます。

ハザード比とは、一方の群を基準にして他方のアウトカム発生の確率が何倍高いかを示すものです。例えば、100対1のアウトカム発生確率を基準とすれば、100対2のアウトカム発生確率は2倍高い場合、ハザード比は「2」になります。

これは説明変数ごとに計算することができますので、アウトカムに対して各説明変数がどれくらいの寄与があるかを調べることができます。