需要予測 (2)重回帰分析②

さて、高速バス新路線の需要予測の続きです。

まずはデータ収集です。

前述のフローチャートのＳｔｅｐ１とStep２で集めたデータを表にしてみました。

20路線について、バス、鉄道を利用した場合の距離、所要時間、便数、料金を調査します。出発時間によっても所要時間や乗換回数が違っていたりするので、特に鉄道のデータは入念に調査する必要があり、膨大な作業量となります

次に、このデータを使って予測式(重回帰式)を作成します。

Y＝μ+aX₁+bX₂+CX₃+dX₄+・・・・・という式です。

Yで「バスを使った流動旅客数シェア」を推測するわけです。

X₁、X₂、X₃、X₄・・・・・は説明変数ですので、この場合、距離、所要時間、運賃、といったデータが入ります。バスと鉄道がありますから、説明変数候補としては9個あることになります。

前回述べましたように、「説明変数ごとの相関関係が高いのは、あまり良い予測式ではない」ので、説明変数ごとの相関関係をチェックし、2変数間の相関が高い場合は、説明変数候補をどちらか1つに絞ります。

このようにして、絞り込まれた説明変数を使って、重回帰式を作成しますが、絞り込まれた説明変数全てを使えばいいのか、一部を使えばよいのかは、実際に式を作ってトライアンドエラーで最適な重回帰式を設計することになります。

以上の作業ではエクセルでもできますが、結構大変な作業になるので、統計解析用の専門ソフトを使い、自動的に設計することも可能です。

さて、このような作業工程を踏んで、最終的に作成されたのが次のような重回帰式です。

バスのシェア(%)=μ＋ a×移動距離(km) ＋ b×バスの所要時間(分) ＋ c×バス便数(本/日)
＋ d×電車便数(本/日) ＋ｅ×電車料金(円) ＋ f×電車乗換回数(回)

という式です。μ、a、b、c、d、e、f は定数です。この定数の公開はご勘弁下さいね。

移動距離、バスの所要時間、バス便数、電車便数、電車料金、電車乗換回数という6つが最終的に選定された説明変数です。ちなみに、この数式は R2=0.862　となりました。数式を使った予測値と実績値は比較的近い値になるはずです。

実際に実績のシェアと重回帰式で推計したシェアを比較してみましょう。まずまず、当たっていそうな感じではないでしょうか。

さて、最後は、この重回帰式を使って、A市とB市の間に高速バスを運航した場合に、どのくらいのシェアが取れるかを推計します。

電車の便数や料金、乗り換え回数はわかっていますから、これらの値を説明変数に代入します。

移動距離やバスを運行した場合の所要時間も大体わかりますから、あとは便数によって、シェアが決まる、ということになります。

重回帰式ではバスの便数の係数はcですが、実はcは小さな数だったので、10本便数を増やしてもシェアは2%も増加しないことがわかっています。

採算性ということを考えると、料金が重要になってきます。重回帰式ではバスの料金は説明変数に入っていませんが、これは、「バスの料金は電車の料金と相関が極めて高いから説明変数から除外した」ためです。実際には、バスの料金は鉄道(特急等)を使った場合の5～6割の料金というのが相場となっています。

従って、便数を増やせば増やすほど、シェアは少しずつ増加しますが、利用客数を便数で割り返したときに1便あたりの乗客数は何人になるか、バス料金を考えた場合の運賃収入･利益はどの程度になるか、を計算し、そりが最大化するように便数を設定することになります。

ちょっとわかりにくかったかもしれませんが、以上が重回帰分析を用いた需要推計の例です。一例で説明しましたが、いろいろな分野に応用が可能です。