ともすると、高い相関関係などが認められたとき、それを因果関係と判断してしまうケースも見られますが、ヘタをすると間違った解釈をしてしまうので注意が必要です。
例えば、「パチンコ頻度」と「肺がん(あり/なし)」の2変数に関係性が見られたときに、「パチンコ頻度が多いと肺がんになりやすい」といった結論を下すことができるでしょうか?
「パチンコ」を「肺がん」の原因であると…。この解釈に直結できないことは、常識的に想像できます。
つまり、パチンコが原因ではなく、「喫煙の有無」が効いているのではないか、と。
パチンコをする人は、同時に喫煙もする傾向があり、また本人が吸わなくても、周囲の人が吸っている煙(副流煙:直接吸い込むより危険ともいわれる)を肺に吸い込む(受動喫煙)ことも考えられます。
このように、「パチンコ頻度」と「喫煙の有無」のどちらが真に関係しているかわからないような状態を、統計では交絡と呼びます。この2変数で分割表(クロス集計表)を作成すれば、パチンコをする人は煙草を吸う人が多い、との傾向が見られるはずです。
因果関係として解釈するには、常識的な視点や研究分野の知識と洞察力が必要となります。
他の多くの要因が複雑に絡まっていることが常ですので、解釈は容易ではなく安易に結論を断言できません。
また、データを収集する前の仮説の設定も重要になってきます。
すなわち、この変数が怪しいのではないか、と。この当たりをつけることができなければ、分析に必要なデータを取得することができない(後から取り直しになる)からです。