前週、更新をさぼってしまいまして申し訳ございませんでした。
今日は、「分布」について解説していきたいと思います。
/*-------------------------------------------------------------------------*/
まずは、用語の解説です。
「分布」
ある変量について、各観測地の広がりの状態をいう。
(出典:デジタル大辞泉)
なかなか難しい説明ですね。。。
具体的な例で言うと、「各都市の交通事故の件数」や「50M走の記録」「生物の生態場所」などが上げられます。
ようするに、母集団(1つのまとまり)の中での要素・事象(記録・結果)の散らばりを表しているのが「分布」です。
図で見た方が分かりやすいですね。
【地域分布】
![これからのはなし](https://stat.ameba.jp/user_images/20130423/13/ahokei0927/2a/3d/j/t02200232_0430045412510889767.jpg?caw=800)
【度数分布】
![これからのはなし](https://stat.ameba.jp/user_images/20130423/13/ahokei0927/e0/54/p/t02200140_0652041612510886642.png?caw=800)
【正規分布】
![これからのはなし](https://stat.ameba.jp/user_images/20130423/13/ahokei0927/05/f9/j/t02200180_0293024012510880509.jpg?caw=800)
統計学では、非常に多数の「分布」を取り扱っており、例を挙げてみると
「正規分布」「二項分布」「対数正規分布」「ポアソン分布」「t分布」「カイ二乗分布」「F分布」などなど
多数の分布を扱っているのですが、今日は
「正規分布」
について解説していきたいと思います。
/*-------------------------------------------------------------------------*/
「正規分布」の用語の解説の前に、「正規分布」を利用するとどのようなことができるのかを解説していきます。
統計学を勉強して、ビジネスに応用するとすると「回帰分析」を主に利用することになると思います。
回帰分析の解説は、次回以降に回しますが、こんなのです。
従属変数(例:テストの点)に対して説明変数(例:勉強時間、参考書の数、塾に通っているなど)がどのような影響を与えているのかということを知ることができるため、各分析をするにあたって回帰分析は非常に有効なプレゼンテーションのツールとなります。
その、「回帰分析」を行うにあたっての前提条件として、母集団の標本がどのように分布しているのかというのは非常に大きな部分となっています。
よく経済雑誌などに掲載されている図にこのような回帰分析の結果があります。
![これからのはなし](https://stat.ameba.jp/user_images/20130423/13/ahokei0927/3a/7e/p/o0591048112510880511.png?caw=800)
これは、基本的な最小二乗法による、単回帰分析を行っています。
中学(?)の時に勉強した、1次関数みたいなものですね。
Y = αX+β
例)
Y:テストの点
α:勉強時間を1単位増加させたときの、学力向上性(勉強の効果)
X:勉強時間
β:固定値(基礎学力)
Xが1単位上がれば、αの分だけYが増加します。
(αが8だったら、1時間勉強時間を増やせばテストの点が8点伸びるということ。)
つまり、勉強すればどんどんテストの点が増えていくということです。
→なので、勉強時間を増やしましょうという説明・プレゼンテーションの資料となります。
しかし、この分析の大前提となる分布の捉え方が違えば、その結果はまったく有意でない(信用性がない)といえます。
こういった単回帰分析はExcelなどでも簡単に関数利用することができるので、資料として利用している方も多いのではと思います。
正直、こんな分析には突っ込みどころは多数あるのですが、今回は「分布」に絞って指摘すると、Excelなどで利用できる関数は前述の通り最小二乗法による単回帰分析を行っています。
/*専門用語が出てきていますが、Excelの後ろではそんな動きをしてるんだ程度で大丈夫です。*/
つまり、集めてきた資料(サンプル)が
「正規分布」に当てはまっていることが前提となるのです。
逆に言うと、「正規分布」に当てはまっていない回帰分析を行った資料を提示されても、「その分析は信用性に欠ける」ということで、全くの無意味だといえます。
そこで、「正規分布」とは何かということを解説していきます。
/*-------------------------------------------------------------------------*/
「正規分布」
ある標本集団のばらつきが、その平均値を境として前後同じ程度にばらついている状態。度数分布表を書くと、平均値を線対称軸とした釣鐘状になる。
(出典:グロービスのMBA経営辞書)
データを度数分布表などで作成したときに、中心付近の度数が最も高くなり,そこから左右に同程度で度数が少なくなっていく形 となります。
正規分布は平均値を中心として左右対称になった西洋の釣鐘と似た形状の曲線(ベルカーブ)を描くことが特徴です。
平均値の人が多く、平均から離れるに従って、その度数(数)が減少していくという形ですね。
例)身長の分布や試験の点数等が正規分布に従いやすくなります。
図にするとこんな感じですね。
![これからのはなし](https://stat.ameba.jp/user_images/20130423/13/ahokei0927/05/f9/j/t02200180_0293024012510880509.jpg?caw=800)
ばらつき(分散)が大きければなだらかなカーブとなり、逆に小さければ急なカーブを描くこととなります。
母集団の標本(集めてきたデータ)がこの正規分布に当てはまっていないと、Excelなどで行う最小二乗法による単回帰分析の結果の有意性は失われます。
テストの点の度数分布がこんな感じで
![これからのはなし](https://stat.ameba.jp/user_images/20130423/13/ahokei0927/e0/54/p/t02200140_0652041612510886642.png?caw=800)
テストの点をYと勉強時間をXとして、座標にするとこんな感じで
![これからのはなし](https://stat.ameba.jp/user_images/20130423/13/ahokei0927/ba/3b/p/t02200180_0564046212510880510.png?caw=800)
最小二乗法で単回帰分析するとこんな感じになる。
![これからのはなし](https://stat.ameba.jp/user_images/20130423/13/ahokei0927/3a/7e/p/t02200179_0591048112510880511.png?caw=800)
どうして、正規分布に当てはまっていない場合に最小二乗法で単回帰分析すると有意性(信用性)が無いのかというのは、次回以降、分散や標準偏差、母集団と標本の取り方を解説した後に、触れていきたいと思っています。
今回の解説を通して、出された資料や分析結果に対して、データがどんな分布にあるのかという考え方(切り口)を持っていただければと思います。
理論は分からなくても、データの分布を可視化してみたときに「?」と思うきっかけになるかもしれません。
また、マーケティングやキャンペーンが当たらなかった場合の検討の材料としても考えられるかもしれません。
前回では、
「数字やデータは何かと比較して初めてその効力を発揮する」
と書きました。
今回は、
「そのデータの集まりから傾向や属性を見る」
という意識を持って頂ければ幸いです。
このブログでは、統計学や経済学のエッセンスを用いて、物事に対する新しい切り口(視点)を持ってもらえたらとおもっています。
斜め読みして「そんなもんなんだ」程度に読んでも分かるように解説していきたいと思っています。
ご一読頂きまして、ありがとうございました。