ロジスティック回帰分析における多重共線性の評価に関して | 薬剤師のためのEBMお悩み相談所-基礎から実践まで

薬剤師のためのEBMお悩み相談所-基礎から実践まで

EBMの基礎の解説、薬剤師業務に役立つ情報の紹介、学んだ内容の共有。これらを総合して行う、薬剤師生涯学習の拠点を目指します。


テーマ:
こんにちは、黒田です。


先日、日頃よりお世話になっている薬剤師の先生に、「ロジスティック回帰分析における多重共線性の評価方法について」ご質問をいただきました。


すでに直接メールにてお答えは差し上げたのですが、思い返してみると興味深い内容でもあるので、少し補足しつつ記事の形でも公開したいと思います。




 

多重共線性について

「多重共線性」というキーワードについては、過去に個別の記事を作成したので、そちらを参照いただければと思います。


今一度簡単におさらいすれば、多変量解析を行った結果生まれた回帰式において、共通の性質をもつ説明変数が同居したために、回帰式が不安定になる現象のことを指します。


一例として、「体重」と「BMI」を同じ回帰式に入れてしまった場合などが挙げられます。もちろん、体重は重くてもBMIは人並みというケースはありますが、両者はたいていかなり強い相関を示すものです。


したがって、こうした場合は多重共線性を生じる可能性が高いので、初めから式に組み込むのはどちらか一方でよい、ということになります。



 

多重共線性の指標「VIF」

先ほどの例などは、わざわざ解析などするまでもなく、多重共線性が疑われるケースです。どの回帰式も、このようにあからさまであれば、多重共線性の発見・処理に苦慮することはありませんが、実際には個々の説明変数が本当に強い相関を持っているかが分からない状態で回帰式と向き合うことになるのが大部分ですので、何かしらの客観的な数値に基づいて多重共線性を評価したいものです。


そこで、重回帰分析において多重共線性を評価する指標として、「分散拡大要因 (variance inflation factor: VIF)」が生み出されました。


これは、回帰式の決定係数をR^2としたとき、次の式で記述されます。
 
 


 
解釈については、おおむねこれが10を超える場合には、多重共線性が存在することが疑われます。まあ、VIF=10ということは、いい換えれば決定係数R^2=0.9ですから、やはりどうも不自然な結果だと感じると思います。


このような数値が出てくる場合には、共通成分の多い説明変数が複数組み込まれていないか、今一度検討するのが望ましいでしょう。





 

ロジスティック回帰分析の場合は?

以上は、重回帰分析の話でした。しかし、冒頭の質問は「ロジスティック回帰分析における多重共線性の評価方法について」でした。こちらについてはどうでしょうか。


まず、残念ながら上で述べたVIFはロジスティック回帰分析では使用できません。なぜならば、ロジスティック回帰分析においては決定係数を計算することが (一般的には) できないからです。


これはなぜか。ロジスティック回帰分析においては、目的変数は二値データになります。つまり「ある疾患を発症する・しない」や「ある条件で特定の商品を購入する・しない」などです。


これに対して、説明変数は連続値をとります。こうしたデータをそれぞれx、y軸にとってプロットすると、xは様々な値をとることができますが、yは「0」か「1」しかとれません。


その結果を図示すると、例えば以下のようになります。

 



ご存知の通り決定係数とは、相関係数の二乗値ですが、このようなデータに対して相関係数を算出しても、正直意味はないでしょう。相関係数が算出できないということは、自動的に決定係数も分からないことになるので、決定係数を用いて計算するVIFも不明となります。


どうやら、統計ソフトの種類によっては、ロジスティック回帰分析の場合にも決定係数が算出されるものもあるようですが、正直これの意味するところは私にはわかりかねます。少なくとも、ロジスティック回帰分析において決定係数を用いる妥当性は確立していないはずです。


こうしたことを考え合わせれば、ロジスティック回帰分析においてはVIFを使って多重共線性を評価するのは不可能と結論できます。



 
 

代替策は?

となると、何をもって多重共線性を評価したらよいか?という疑問が生じます。


これについては、万能薬的な手法は存在しないと思いますが、一つの考え方として、説明変数同士の相関係数を算出し、その絶対値が0.9を超えるようなものがないか検討する、という方法があります。


これならば、重回帰分析でもロジスティック回帰分析でも可能です。やはり、最初の話に帰りますが、ある程度常識を働かせてそれぞれの説明変数の意味合いをチェックすることに落ち着くのではないでしょうか。



では、また次回に。

黒田真生さんをフォロー

ブログの更新情報が受け取れて、アクセスが簡単になります

Ameba人気のブログ

Amebaトピックス